我们考虑在离散观察点上测量的功能数据。通常通过额外的噪声测量这种数据。我们在本文中探讨了这种类型数据的因子结构。我们表明潜伏信号可以归因于相应因子模型的公共组件,并且可以通过来自因子模型文献的方法借用方法来估计。我们还表明,在采取这种多变量而不是“功能”的角度之后,可以准确地估计在功能数据分析中发挥关键作用的主成分。除了估计问题之外,我们还解决了对IID噪声的零假设的测试。虽然这个假设在很大程度上在文献中主要是普遍存在的,但我们认为它通常不切实际,并且不受残留分析的支持。
translated by 谷歌翻译
一方面确定适当数量的注意力头,另一方面,变压器编码器的数量是使用变压器体系结构的计算机视觉(CV)任务的重要选择。计算实验证实了期望参数的总数必须满足过度确定的条件(即,约束数量大大超过了参数数量)。然后,可以预期良好的概括性能。这设置了可以选择头部数量和变压器数量的边界。如果可以假定上下文在要分类的图像中的作用很小,那么使用多个头部数量较少(例如一个或两个)的多个变压器是有利的。在分类其类可能在很大程度上取决于图像中上下文的对象(即补丁取决于其他补丁的含义)时,头部数量与变压器的含义同样重要。
translated by 谷歌翻译
在深度学习社区中,对单精度浮点算术的承诺是广泛的。为了评估该承诺是否合理,计算精度(单个和双重精度)对结合梯度(CG)方法(二阶优化算法)和RMSProp(一阶算法)的优化性能的影响调查。具有一到五个完全连接的隐藏层以及中等或强的非线性的神经网络的测试已针对均方误差(MSE)进行了优化。已经设置了培训任务,以使其最低限度为零。计算实验已经披露,只要线路搜索找到改进,单精度就可以保持(超级线性收敛),并具有双重精确。诸如RMSPROP之类的一阶方法不会受益于双重精度。但是,对于中等非线性任务,CG显然是优越的。对于强烈的非线性任务,两种算法类别仅在与输出方差相关的均方误差方面发现解决方案相当差。每当解决方案有可能对应用程序目标有用时,具有双浮点精度的CG都会出色。
translated by 谷歌翻译
智能城市应用程序(例如智能交通路由或事故预防)依赖计算机视觉方法来确切的车辆定位和跟踪。由于精确标记的数据缺乏,从多个摄像机中检测和跟踪3D的车辆被证明是探索挑战的。我们提出了一个庞大的合成数据集,用于多个重叠和非重叠摄像头视图中的多个车辆跟踪和分割。与现有的数据集不同,该数据集仅为2D边界框提供跟踪地面真实,我们的数据集还包含适用于相机和世界坐标中的3D边界框的完美标签,深度估计以及实例,语义和泛型细分。该数据集由17个小时的标记视频材料组成,从64个不同的一天,雨,黎明和夜幕播放的340张摄像机录制,使其成为迄今为止多目标多型多相机跟踪的最广泛数据集。我们提供用于检测,车辆重新识别以及单摄像机跟踪的基准。代码和数据公开可用。
translated by 谷歌翻译
图像分辨率或一般图像质量在当今面部识别系统的性能中起着至关重要的作用。为了解决这个问题,我们提出了一种流行的三胞胎损失的新型组合,以通过微调现有面部识别模型来提高与图像分辨率的鲁棒性。随着八度损失,我们利用高分辨率图像及其合成下采样变体之间的关系与其身份标签共同采样。通过我们的方法对几种最先进的方法进行微调证明,我们可以在各种数据集上显着提高跨分辨率(高低分辨率)面部验证的性能,而不会有意义地加剧高高度的性能分辨率图像。我们的方法应用于FaceTransFormer网络,在挑战性的XQLFW数据集上达到95.12%的面对验证精度,同时在LFW数据库上达到99.73%。此外,低到低面验证精度从我们的方法中受益。我们发布我们的代码,以允许将OCTUPLET损失的无缝集成到现有框架中。
translated by 谷歌翻译
磁共振光谱成像(MRSI)是研究人体代谢活动的宝贵工具,但目前的应用仅限于低空间分辨率。现有的基于深度学习的MRSI超分辨率方法需要培训一个单独的网络,为每个升级因素训练,这是耗时的,并且记忆力低下。我们使用过滤器缩放策略来解决这个多尺度的超分辨率问题,该级别的缩放策略根据升级因素调节卷积过滤器,以便可以将单个网络用于各种高尺度因素。观察每个代谢物具有不同的空间特征,我们还根据特定的代谢产物调节网络。此外,我们的网络基于对抗损失的重量,因此可以在单个网络中调整超级分辨代谢图的感知清晰度。我们使用新型的多条件模块结合了这些网络条件。实验是在15名高级神经胶质瘤患者的1H-MRSI数据集上进行的。结果表明,所提出的网络在多种多尺度超分辨率方法中实现了最佳性能,并且可以提供具有可调清晰度的超级分辨代谢图。
translated by 谷歌翻译
针对组织病理学图像数据的临床决策支持主要侧重于强烈监督的注释,这提供了直观的解释性,但受专业表现的束缚。在这里,我们提出了一种可解释的癌症复发预测网络(Ecarenet),并表明没有强注释的端到端学习提供最先进的性能,而可以通过注意机制包括可解释性。在前列腺癌生存预测的用例上,使用14,479个图像和仅复发时间作为注释,我们在验证集中达到0.78的累积动态AUC,与专家病理学家(以及在单独测试中的AUC为0.77放)。我们的模型是良好的校准,输出生存曲线以及每位患者的风险分数和群体。利用多实例学习层的注意重量,我们表明恶性斑块对预测的影响较高,从而提供了对预测的直观解释。我们的代码可在www.github.com/imsb-uke/ecarenet上获得。
translated by 谷歌翻译
端到端(E2E)自动语音识别(ASR)系统通常难以识别出罕见的单词,这在训练数据中出现了很少。一种有希望的方法,提高了这种稀有词语的识别准确性,是在推理的推理中锁定在个性化/上下文信息上。在这项工作中,我们通过利用这种上下文信号,提出了一种新颖的上下文传感器传感器(CATT)网络,其通过利用这种上下文信号来改善基于最先进的变换器的ASR系统。具体地,我们提出了一种基于多主题的上下文偏置网络,其与ASR子网的其余部分共同训练。我们探讨了对编码上下文数据的不同技术,并创建最终注意上下文向量。我们还利用BLSTM和预借用的基于BERT的模型来编码上下文数据并指导网络培训。使用内部现场数据集,我们示出了使用基于BERT的上下文编码器的CATT,可提高基线变压器传感器的字错误率,并且分别优于现有的深层上下文模型24.2%和19.4%。
translated by 谷歌翻译